Pretrained large-scale vision-language models like CLIP have exhibited strong generalization over unseen tasks. Yet imperceptible adversarial perturbations can significantly reduce CLIP's performance on new tasks. In this work, we identify and explore the problem of \emph{adapting large-scale models for zero-shot adversarial robustness}. We first identify two key factors during model adaption -- training losses and adaptation methods -- that affect the model's zero-shot adversarial robustness. We then propose a text-guided contrastive adversarial training loss, which aligns the text embeddings and the adversarial visual features with contrastive learning on a small set of training data. We apply this training loss to two adaption methods, model finetuning and visual prompt tuning. We find that visual prompt tuning is more effective in the absence of texts, while finetuning wins in the existence of text guidance. Overall, our approach significantly improves the zero-shot adversarial robustness over CLIP, seeing an average improvement of over 31 points over ImageNet and 15 zero-shot datasets. We hope this work can shed light on understanding the zero-shot adversarial robustness of large-scale models.
translated by 谷歌翻译
域的概括(DG)旨在学习一个对源域的模型,以很好地概括看不见的目标域。尽管它取得了巨大的成功,但大多数现有方法都需要用于源域中所有培训样本的标签信息,这在现实世界中既耗时又昂贵。在本文中,我们求助于解决半监督域的概括(SSDG)任务,其中每个源域中都有一些标签信息。为了解决任务,我们首先分析多域学习的理论,该理论强调了1)减轻域间隙的影响和2)利用所有样品训练模型可以有效地减少每个源域中的概括误差,因此提高伪标签的质量。根据分析,我们提出了Multimatch,即将FixMatch扩展到多任务学习框架,从而为SSDG生成高质量的伪标签。具体来说,我们将每个培训域视为一个任务(即本地任务),并将所有培训域(即全球任务)组合在一起,以训练看不见的测试域的额外任务。在多任务框架中,我们为每个任务使用独立的BN和分类器,这可以有效地减轻伪标记期间不同领域的干扰。同样,共享框架中的大多数参数,可以通过所有培训样本进行培训。此外,为了进一步提高伪标签的准确性和模型的概括,我们分别在培训和测试过程中分别融合了全球任务和本地任务的预测。一系列实验验证了所提出的方法的有效性,并且在几个基准DG数据集上优于现有的半监督方法和SSDG方法。
translated by 谷歌翻译
关于语言引导的图像操纵的最新作品在提供丰富的语义方面表现出了极大的语言力量,尤其是对于面部图像。但是,语言中的其他自然信息,动作的探索较少。在本文中,我们利用运动信息并研究一项新颖的任务,语言引导的面部动画,旨在在语言的帮助下对静态面部图像进行动画。为了更好地利用语言的语义和动作,我们提出了一个简单而有效的框架。具体而言,我们提出了一个经常性运动生成器,以从语言中提取一系列语义和运动信息,并将其与视觉信息一起提供给预训练的样式,以生成高质量的帧。为了优化所提出的框架,提出了三个精心设计的损失功能,包括保持面部身份的正规化损失,路径长度正规化损失以确保运动平滑度和对比度损失,以在一个模型中使用各种语言指导启用视频综合。对不同领域的定性和定量评估进行了广泛的实验(\ textit {ef。语。代码将在https://github.com/tiankaihang/language-guided-animation.git上找到。
translated by 谷歌翻译
作为非遗迹渲染(NPR)的主要分支,图像样式主要使用计算机算法将照片渲染为艺术绘画。最近的工作表明,样式信息的提取,例如笔触纹理和目标样式图像的颜色是图像风格的关键。鉴于其中风质地和颜色特征,提出了一种新的中风渲染方法,该方法完全考虑了音调特征和原始油画的代表性,以便将原始油画图像的音调适应风格化的图像并制作它接近艺术家的创造性效果。实验验证了所提出模型的功效。这种方法更适合具有相对均匀的方向意识的点尔主义画家的作品,尤其是对于自然场景。当原始绘画笔触具有更清晰的方向感时,使用此方法模拟刷子纹理特征可能会不那么令人满意。
translated by 谷歌翻译
受到人类使用多种感觉器官感知世界的事实的启发,具有不同方式的传感器在端到端驾驶中部署,以获得3D场景的全球环境。在以前的作品中,相机和激光镜的输入通过变压器融合,以更好地驾驶性能。通常将这些输入进一步解释为高级地图信息,以帮助导航任务。然而,从复杂地图输入中提取有用的信息很具有挑战性,因为冗余信息可能会误导代理商并对驾驶性能产生负面影响。我们提出了一种新颖的方法,可以从矢量化高清(HD)地图中有效提取特征,并将其利用在端到端驾驶任务中。此外,我们设计了一个新的专家,以通过考虑多道路规则来进一步增强模型性能。实验结果证明,两种提出的改进都可以使我们的代理人与其他方法相比获得卓越的性能。
translated by 谷歌翻译
多标签学习(MLL)从每个与多个标签相关联的示例中学习,其中每个培训示例的所有相关标签的高成本对于现实世界应用程序都有挑战。为了应对挑战,我们研究了单个阳性多标签学习(SPMLL),其中每个示例仅带有一个相关标签,并表明人们可以成功地学习一个理论上接地的多标签分类器,以解决该问题。在本文中,提出了一种名为{\提出的}的新型SPMLL方法,即提出了具有标签增强的单阳性多标签学习。具体而言,得出了无偏的风险估计器,可以保证该估计器大致融合到完全监督学习的最佳风险最小化器中,并表明每个实例的一个正标能够足以训练预测模型。然后,通过将潜在软标签恢复为标签增强过程,建立相应的经验风险估计器,其中潜在软标签的后验密度近似于通过推动模型对变异beta beta密度参数。基准数据集上的实验验证了所提出方法的有效性。
translated by 谷歌翻译
有望在近期量子计算机上建立有价值的应用程序。但是,最近的作品指出,VQA的性能极大地依赖于Ansatzes的表现性,并且受到优化问题(例如贫瘠的高原(即消失的梯度))的严重限制。这项工作提出了国家有效的ANSATZ(SEA),以改善训练性,以进行准确的基态制备。我们表明,海洋可以产生一个任意纯状态,其参数比通用的安萨兹少得多,从而使其适合基态估计等任务有效。然后,我们证明可以通过灵活地调节海洋的纠缠能力来有效地通过海洋有效地减轻贫瘠的高原,并可以最大程度地提高训练性。最后,我们研究了大量的示例,在基础状态估计中,我们在成本梯度和收敛速度的幅度上得到了显着改善。
translated by 谷歌翻译
探索近期量子设备的量子应用是具有理论和实际利益的量子信息科学的快速增长领域。建立这种近期量子应用的领先范式是变异量子算法(VQAS)。这些算法使用经典优化器来训练参数化的量子电路以完成某些任务,其中电路通常是随机初始初始初始化的。在这项工作中,我们证明,对于一系列此类随机电路,成本函数的变化范围通过调整电路中的任何局部量子门在具有很高概率的Qubits数量中呈指数级消失。该结果可以自然地统一对基于梯度和无梯度的优化的限制,并揭示对VQA的训练景观的额外严格限制。因此,对VQA的训练性的基本限制是拆开的,这表明具有指数尺寸的希尔伯特空间中优化硬度的基本机制。我们通过代表性VQA的数值模拟进一步展示了结果的有效性。我们认为,这些结果将加深我们对VQA的可扩展性的理解,并阐明了搜索具有优势的近期量子应用程序。
translated by 谷歌翻译
人重新识别(RE-ID)是视频监视系统中的一项关键技术,在监督环境中取得了重大成功。但是,由于可用源域和看不见的目标域之间的域间隙,很难将监督模型直接应用于任意看不见的域。在本文中,我们提出了一种新颖的标签分布学习(LDL)方法,以解决可推广的多源人员重新ID任务(即,有多个可用的源域,并且在培训期间看不到测试域),旨在旨在探索不同类别的关系,并减轻跨不同域的域转移,以改善模型的歧视并同时学习域不变特征。具体而言,在培训过程中,我们通过在线方式生产标签分布来挖掘不同类别的关系信息,因此它有益于提取判别特征。此外,对于每个类别的标签分布,我们进一步对其进行了修改,以更多和同等的关注该类不属于的其他域,这可以有效地减少跨不同域的域间隙并获得域不变特征。此外,我们还提供了理论分析,以证明所提出的方法可以有效地处理域转移问题。在多个基准数据集上进行的广泛实验验证了所提出的方法的有效性,并表明所提出的方法可以胜过最先进的方法。此外,进一步的分析还揭示了所提出的方法的优越性。
translated by 谷歌翻译
人重新识别(RE-ID)在监督场景中取得了巨大成功。但是,由于模型过于适合所见源域,因此很难将监督模型直接传输到任意看不见的域。在本文中,我们旨在从数据增强的角度来解决可推广的多源人员重新ID任务(即,在培训期间看不见测试域,并且在培训期间看不见测试域,因此我们提出了一种新颖的方法,称为Mixnorm,由域感知的混合范围(DMN)和域软件中心正则化(DCR)组成。不同于常规数据增强,提出的域吸引的混合范围化,以增强从神经网络的标准化视图中训练期间特征的多样性,这可以有效地减轻模型过度适应源域,从而提高概括性。在看不见的域中模型的能力。为了更好地学习域不变的模型,我们进一步开发了域吸引的中心正规化,以更好地将产生的各种功能映射到同一空间中。在多个基准数据集上进行的广泛实验验证了所提出的方法的有效性,并表明所提出的方法可以胜过最先进的方法。此外,进一步的分析还揭示了所提出的方法的优越性。
translated by 谷歌翻译